Chap.O 基礎 & 簡介:
Prat1. Azure Machine Learning
什麼是 Azure Machine Learning?
Azure Machine Learning 是建立在雲端上,專門用於負載機器學習龐大計算量的一個平台。
其圖中流程大為以下:
- Compute:在雲端上建立一個計算用虛擬機。
- Data Storage & connectivity: 資料存儲與連結虛擬機。
- ML workflow orchestration:就是先前提過的機器學習 10 步驟。
- Model registration & management:將開發完成的模型註冊以便從開發端連接到上線機台。
- Metrics & Monitoring:模型上線後的運行流量、效能評估與監控...等。
- Model deployment:將註冊完成後的模型部屬到上線機台。
1-1. Machine Learning Context
1. Data
A. Storage 資料存儲
- Storage:存儲服務。
- Data Lake Store:對特定行業(網購、監控等)大數據,提供「待分析的原始資料」的暫存服務。
- SQL Database:提供存儲 SQL 資料服務。
- Cosmos DB:提供存儲 no-SQL(半結構性)資料服務。
B. Transfer and Transform 轉移與轉換
將原始數據 ETL 到儲存體的服務。
- Azure Data Factory:提供完全受控的無伺服器資料整合服務。
- Azure HDInsight:提供開放原始碼分析服務,如 Hadoop、Apache Spark、R 等。
- Azure Databricks:提供資料進行最佳化的分析平台。
2. Azure Machine Learning
- Data Scientist:對數據做初期分析、刪減、遞補、訓練模型。
- App Developer:建立模型、開發應用程式。
- Software Engineer/Operator:依照服務部屬模型、編排 ML 的執行及整合其排程。
3. ML-Powered Apps
A. Apps services
將開發完成的應用程式部屬到伺服器的服務。
B. Container Deployment
部屬並控管容器的服務。
1-2. Machine Learning Operationalizatoin (ML Ops)
基於 DevOps 將 ML 的流程(資料分析到產出模型)產線化,從而加快開發速度。
- Infrastructure-as-code 和配置管理
- 版本控制與追蹤
- 持續集成 (Continuous integration, CI) 和持續交付 (Continuous delivery, CD)
- 持續監控
1-3. Access Control Permissions
- 用戶登錄 Azure Active Directory (AAD) 並獲取 token.
- Token 會授予 Azure ML workspace 的訪問權限.
- 用 RBAC 來管控訪問資源的權限
- 透過 SSH ,可對計算資源權限做選擇性的開放
- 部署服務端點的訪問權限,可使用密鑰 (key) 或 token-based
1-4. Machine Learning Designer